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摘要 : 【 目的 ] 在 调查 分 析 全 球 数据 科学 课程 建设 现状 的 基础 上 , 提出 数据 科学 课程 的 共性 特点 、 主 要 挑战 及 解 
决 对 策 。[ 方法 】 采用 实证 研究 方法 和 内 容 分 析 方法 调查 分 析 国 内 外 数据 科学 课程 的 建设 现状 、 成 功 经 验 与 存在 
问题 。[ 结果 】 提 炼 出 全 球 数据 科学 课程 的 共性 以 及 数据 科学 与 其 他 相关 课程 之 间 的 差异 性 。[ 局 限 】 对 数据 科 
学 人 才 培 养 的 讨论 主要 聚焦 于 课程 建设 层面 ,而 对 专业 层面 的 讨论 不 多 。[ 结论 】 本 文 提出 数据 科学 课程 建设 中 


的 10 个 核心 问题 及 其 解决 方案 。 
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1 引 言 


在 大 数据 时 代 ,， 数 据 科 学 是 现代 人 才 必 备 知 识 三 

技能 。 作 为 一 门 新 兴 科 学 , 数据 科学 已 成 为 高 校 课程 
设计 与 教学 改革 的 主要 关注 点 之 一 。 在 国外 ,哈佛 大 
学 、 麻 省 理工 学 院 、 哥 伦比 亚 大 学 、 纽 约 大 学 等 著名 
学 府 纷纷 开设 数据 科学 相关 课程 , 引起 全 球 相关 专业 
师 生 的 密切 关注 。 在 国内 , 中 国人 民 大 学 、 清 华 大 学 、 
北京 大 学 等 高 等 院 校 也 先后 启动 数据 科学 专业 和 (或 ) 
课程 建设 工作 。 但 是 , 就 目前 而 言 , 除了 少量 介绍 特定 
课程 的 建设 经 验 的 论文 中 之 外 , 对 国内 外 数据 科学 课 
程 的 系统 调研 和 专题 探讨 仍 属 空白 。 
本 文 主要 从 课程 建设 层面 探讨 国内 外 数据 科学 课 
程 建设 中 的 经 验 与 不 足 ， 分 析 数 据 科学 课程 教学 改革 
中 的 主要 问题 与 对 策 ， 最 终 探 讨 了 数据 科学 课程 的 专 
业 地 位 及 在 其 他 相关 课程 教学 改革 中 的 重要 作用 。 


2 相关 工作 
为 了 收集 原始 数据 , 笔者 通过 互联 网 搜索 和 专家 


访谈 的 方法 较为 系统 性 地 调研 了 国内 外 具有 代表 性 的 
数据 科学 课程 ,如 表 1 所 示 。 在 此 基础 上 , 采用 内 容 分 
析 法 , 分 析 数 据 科 学 课程 的 详细 内 容 及 元 数据 ， 以 便 
进行 深层 次 的 讨论 。 

从 表 1 可 看 出 , 数据 科学 课程 的 建设 大 约 从 2011 
年 开始 , 率先 在 佛罗里达 大 学 、 加 州 大 学 伯克利 分 校 、 
哥伦比亚 大 学 等 著名 学 府 开设 。 目 前 ， 名 称 中 含有 “ 数 
据 科 学 ”或 “Data Science” 字 样 的 课程 群 可 以 进一步 细 
分 为 三 种 ， 如 图 1 所 示 。 

(1) 以 数据 科学 的 “理论 基础 "为 中 心 的 课程 : 主 
要 讲解 学 习 数 据 科学 课程 之 前 需要 具备 的 知识 准备 ， 
处 于 数据 科学 课程 链 的 上 游 ， 一 般 很 少 涉 及 数据 科学 
本 身 的 知识 。 例 如 , John Paisley 于 2015 年 在 哥伦比亚 
大 学 开设 的 《面向 数据 科学 的 机 器 学 习 》(Machine 
Learning for Data Science) 课 程 所 主要 讲解 了 机 器 学 习 
知识 ; 再 如 MIT 的 Eric Grimson 教授 等 开设 的 《计算 
思维 与 数据 科学 导论 》(Introduction to Computational 
Thinking and Data Science) 中 则 侧重 于 对 统计 学 知识 的 
讲解 。 相 对 于 其 他 课程 ,数据 科学 对 统计 学 、 机 器 学 
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表 1 数据 科学 的 课程 调研 
课程 名 称 年 份 形式 学 校 开课 教师 选课 要 求 
We Science: Large-scale Advanced Data 2011 面授 ”佛罗里达 大 学 Daisy Zhe Wang 硕 十 
nalysis 
Data Science and Analytics Thought Leaders 2012 面授 。” 加 州 大 学 伯克利 分 校 Ram Akella 等 不 限 
Introduction to Data Science 2012 面授 “哥伦比亚 大 学 Rachel Schutt 不 限 
Introduction to Data Science 2013 面授 “” 谢 菲 尔 德 大 学 Paul Clough 数据 相关 /硕士 
Data Science(Coursea) 2014 网 授 ”约翰 : 霍 普 金 斯 大 学 Roger D. Peng 等 ”不 限 
Executive Data Science(Coursea) 2014 网 授 “” 约翰 . 霍 普 金 斯 大 学 Roger D. Peng 等 ”不 限 
Data Science at Scale (Coursea) 2014 网 授 ”华盛顿 大 学 Bill Howe 不 限 
Data Science 2014 面授 ”哈佛 大 学 Rafael Trizarry 等 ”本科 
Intro to Data Science 2014 面授 ”纽约 大 学 Brian D'Alessandro 不 限 
大 数据 科学 与 应 用 系列 讲座 (MOOC 学 院 ) 2015 网 授 ”清华 大 学 李 军 不 限 
Foundations of Data Science 2015 面授 。” 加 州 大 学 伯克利 分 校 John DeNero 不 限 
Data Sciences Basic 2015 面授 ”美国 东北 大 学 Akira Suzuki 不 限 
Fundamentals of Data Science 2015 面授 。” 荧 尼 黑 大 学 Goeran Kauermann ”统计 与 科学 相关 
A Practical Approach to Data Science 2016 面 /网 授 哈佛 大 学 Ramon Mata-Toledo 不 限 
Introduction to Computational Thinking and 2016 网 授 。” 麻 省 理工 学 院 (MIT) Eric Grimson 等 不 限 
Data Science (edx) 
Process Mining: The Practice of 2016 网 授 。 埃 因 堆 芬 理工 大 学 Wilvan der Aalst 硕士 
Data Science (Coursea) 
Data Science 2016 面授 ”法国 圣 艾 蒂 安 大 学 Marc Sebban 不 限 
Fundamentals of Data Science 2017 面授 ”牛津 大 学 Julian Gallop 不 限 
数据 科学 2017 面授 ”中国 人民 大 学 朝 乐 门 不 限 
Data Science 不 详 面授 ”伦敦 大 学 Aysha Chaudhary ”数据 相关 /硕士 
上 游 课 程 数据 科学 下 游 课 程 
Se > A > 
定位 准备 学 习 数 据 科 学 


理论 基础 
Machine Learning for 

Data Science (John 
Paisley/2015/ 哥 大 ) 


便 


以 数据 科学 的 理论 者 
为 中 心 的 课程 


出 


图 1 


以 数据 科学 的 基础 理论 
为 中 心 的 课程 


数据 科学 的 课程 链 


和 数据 可 视 化 等 基础 理论 之 间 的 耦合 度 较 高 ， 学习 难 
度 较 大 。 因 此 ,此 类 课程 可 被 视 为 是 数据 科学 课程 的 


先 修 课程 ， 
识 葛 定 基础 。 


其 意义 在 于 为 学 生 更 好 掌握 数据 科学 的 知 


(2) 以 数据 科学 的 “基础 理论 ”为 中 心 的 课程 : 主 


要 讲解 数据 科学 本 身 的 理念 、 


领域 应 用 


伯克利 分 校 ) 


Data Science for Smart 
Cities (Alexey Pozdnukhov/, 
2016/ 加 州 大 学 


以 数据 科学 的 应 月 


友 


为 中 心 的 课程 


理论 、 方 法 、 技 术 、 工 


具 和 (或 ) 最 佳 实践 应 用 , 位 于 数据 科学 课程 链 的 核心 。 
Brian D’Alessandro 于 2014 年 在 纽约 大 学 开设 的 《 数 
据 科学 导论 》(Intro to Data Science) 中 主要 讲解 了 数据 
科学 的 定义 、 方 法 和 应 用 等 基本 问题 ; 朝 乐 门 在 中 国 


Data Analysis and Knowledge Discovery 


人 民 大 学 开设 的 《数据 科学 》 课 程 主要 讲解 数据 科学 
的 理念 、 理 论 、 方 法 、 技 术 、 工 具 和 典型 应 用 , 并 突 
出 了 数据 产品 开发 能 力 的 培养 。 

(3) 以 数据 科学 的 “领域 应 用 ”为 中 心 的 课程 : 主 
要 讲解 数据 科学 对 某 一 个 学 科 领 域 的 影响 及 其 应 用 方 
法 论 或 (和 ) 最 佳 实践 , 处 于 数据 科学 课程 链 的 下 游 。 
Alexey Pozdnukhov 于 2016 年 在 加 州 大 学 伯克利 分 校 
开设 的 课程 (智慧 城市 中 的 数据 科学 XData Science for 
Smart Cities)5 主 要 讲解 如 何 基于 数据 科学 解决 智慧 
市 学 科 领 域 的 数据 处 理工 作 。 

值得 一 提 的 是 , 本文 在 课程 建设 层面 重点 讨论 
“以 数据 科学 的 基础 理论 为 中 心 的 课程 ?的 建设 与 教学 
改革 问题 ， 并 未 涉及 数据 科学 与 大 数据 技术 专业 的 建 
设 等 专业 建设 层面 的 问题 。 


3 共性 与 特色 


通过 相关 课程 的 调查 分 析 发 现 ,数据 科学 的 课程 
建设 涉及 两 个 基本 问题 : 一 是 课程 建设 中 的 共性 问题 
一 一 虽然 不 同 课程 的 建设 在 细节 上 有 所 不 同 , 但 它们 
表现 出 一 些 共 性 特点 ; 二 是 数据 科学 与 其 他 相关 课程 
之 间 的 差异 性 一 一 数据 科学 课程 的 建设 应 具备 的 、 区 
别 于 其 他 课程 的 特色 属性 。 但 是 , 这 些 共 性 和 特色 也 
正 是 数据 科学 课程 建设 与 教学 改革 的 出 发 点 ,应 给 予 
高 度 关注 。 

(1) 教学 难度 偏 高 。 无 论 从 教师 的 授课 角度 还 是 
从 学 生 的 学 习 视 角 看 , 数据 科学 课程 确实 具有 较 高 的 
难度 系数 。 通 过 MOOC 平台 开放 的 数据 科学 课程 看 ， 
虽然 关注 或 注册 人 数 很 多 , 但 是 坚持 完成 全 部 学 习 和 
实验 环节 的 比较 少 ,最 后 能 通过 考试 的 学 员 人 数 更 
少 。 目 前 开设 数据 科学 课程 的 学 校 都 是 哈佛 、MIT、 
哥 大 等 国际 顶级 学 府 , 而 多 数 一 般 高 等 院 校 尚未 开设 
此 课程 ,也 在 一 定 程度 上 说 明 该 课程 的 教学 与 学 习 难 
度 。 从 根本 上 讲 , 数据 科学 课程 建设 与 改革 中 存在 的 
难度 系数 偏 高 的 主要 原因 在 于 : 

理论 基础 的 跨 学 科 性 : 数据 科学 的 理论 基础 是 统计 
学 、 机 器 学 习 和 数据 可 视 化 , 而 这 些 课程 的 教学 与 学 习 本 身 
就 很 难 。 

加 基础 理论 的 前 沿 性 : 数据 科学 的 主要 内 容 仍 处 于 不 
断 变 化 或 尚未 达成 共识 的 阶段 ， 其 教 与 学 的 活动 均 需 要 不 
断 跟踪 相关 理论 与 实践 的 最 新 动态 。 

图 经 验 与 材料 的 不 足 : 数据 科学 课程 的 开设 时 间 不 长 ， 
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可 借鉴 的 经 验 、 优 秀 教材 及 教学 辅助 材料 相对 蔽 乏 。 

(2) 课程 定位 的 科学 性 。 已 开设 的 数据 科学 课程 
都 表现 出 与 其 他 传统 课程 的 差异 性 。 虽 然 数据 科学 中 
的 数据 统计 、 机 器 学 习 、 数 据 挖掘 、 数 据 管理 等 内 容 
与 传统 课程 之 间 存 在 一 定 的 交叉 关系 , 但 是 也 表现 出 
培养 目标 上 的 区 别 性 。 例 如 , Ramon A. Mata-Toledo 等 
在 哈佛 大 学 开设 的 《数据 科学 的 实用 方法 》(A Practical 
Approach to Data Science) 呈 课程 中 包含 对 数据 挖掘 的 
讲解 , 但 其 教学 目的 并 不 在 于 系统 讲解 数据 挖掘 的 全 
部 内 容 , 而 是 从 数据 科学 视角 ， 有 选择 性 地 讲解 数据 
挖掘 的 部 分 知识 点 ， 突 出 的 是 面向 数据 科学 的 数据 挖 
掘 。 数 据 科学 与 其 理论 基础 课程 教学 之 间 的 区 别 在 于 : 

QD 教学 目的 不 同 : 数据 科学 课程 的 教学 目的 并 不 是 重 
新 讲 一 遍 统计 学 、 机 器 学 习 、 数 据 挖 气 等 课程 的 全 部 知识 ， 
而 是 为 数据 科学 知识 的 学 习 、 兴 趣 培育 和 动手 能 力 的 培养 为 
教学 目的 ， 有 选择 性 地 讲解 理论 基础 中 的 部 分 知识 点 。 

@) 讲 解 视 角 和 出 发 点 不 同 : 数据 科学 的 教学 不 应 是 从 
统计 学 、 机 器 学 习 角 度 诠释 自身 的 内 容 , 而 是 从 数据 科学 角 
度 讲解 和 组 织 理论 基础 中 的 知识 点 ,做 到 有 选择 地 裁剪 理 
论 基 础 ,重视 问题 导向 的 课程 设计 。 

鲜 继承 与 创新 : 数据 科学 课程 的 建设 不 仅 需要 继承 机 
器 学 习 和 统计 学 等 理论 基础 类 课程 的 建设 经 验 , 而 且 更 需 
要 融入 一 些 自己 的 特色 。 例如, 通过 对 Anscombe 的 4 组 数 
据 (Anscombe's Quartet)i" 的 介绍 ， 讲 解 可 视 化 方法 、 统 计 学 
和 机 器 学 习 在 数据 科学 中 的 互补 性 优势 。 

(3) 实战 能 力 的 培养 。 数 据 科学 是 一 门 实战 性 很 
强 的 课程 。 数 据 科学 领域 黄 基 之 作 一 一 《Doing Data 
Science: Straight Talk from the Frontline》 四 、《Practical 
Data Science with R》 等 畅销 书 的 书 名 可 以 证 明 这 一 
点 。 一 些 著 名 大 学 开设 的 课程 名 称 也 反映 出 数据 科学 
的 实战 性 ， 如 哈佛 大 学 《数据 科学 实用 方法 》(A 
Practical Approach to Data Science) 、 埃 因 霍 芬 理 工大 学 
《过 程控 掘 : 数据 科学 实战 》(Process Mining: The 
Practice of Data Science) 、 约 险 ， 霍 普 金 斯 大 学 《数据 
科学 毕业 项 目 》(Data Science Capstone) 和 清华 大 学 的 
《大 数据 科学 与 应 用 系列 讲座 》 从 课程 设计 和 教学 实 
施 视角 看 ,数据 科学 课程 的 实战 性 主要 体现 在 : 

(加 入 实战 应 用 案例 分 析 或 大 作业 : 多 数 课程 都 引入 
一 些 特别 能 吸引 学 生 兴 趣 的 实战 应 用 案例 ， 如 波士顿 房价 
分 析 、 美 国 总 统 大 选 预测 等 。 中 国人 民 大 学 朝 乐 门 的 《数据 
科学 ) 课 程 特别 鼓励 学 生 通过 参与 开源 项 目 和 竞赛 项 目 锻炼 
自己 的 实际 动手 能 力 。 

G@O 有 实战 经 验 的 数据 科学 家 亲自 讲解 或 参与 讲解 : Dave 


Holtz(Airbnb 数据 科学 家 ) 等 来 自 产 业界 专家 在 Udacity 上 开 
设 课 程 《 数 据 科 学 导论 》(Intro to Data Science)00。 清 华 大 
学 李 军 开设 的 《大 数据 科学 与 应 用 系列 讲座 》 中 特 邀 吴军 等 
来 自 实际 产业 和 业务 部 门 的 数据 科学 家 或 相关 领域 的 专家 
学 者 讲解 专题 内 容 。 

(4) 学 生 专 业 背 景 的 多 样 性 。 与 其 他 课程 不 同 的 
是 , 数据 科学 课程 不 仅 受 到 本 专业 学 生 的 重视 , 更 是 
受到 其 他 相关 管理 类 、 社 会 类 、 经 济 类 专业 学 生 的 高 
度 关 注 。 目 前 ， 绝 大 多 数 数据 科学 课程 设计 也 很 好 地 
反映 了 这 一 特点 一 一 课程 大 纲 或 课程 通告 中 对 学 生 专 
业 要 求 不 做 任何 限制 。 因 此 , 生源 结构 的 复杂 性 是 交 
据 科学 课程 建设 面临 的 主要 挑战 之 一 。 


图 校 企 合作 。 据 报道 , 2016 年 5 月， 新 加 坡 国 立 大 学 与 
微软 公司 合作 成 立新 加 坡 国立 大 学 数据 科学 研究 中 心 , 将 
共同 推动 数据 科学 的 课程 教育 01。 


4 共识 与 经 验 


在 分 析 数 据 科学 课程 建设 的 共性 和 特色 的 基础 
上 , 笔者 进一步 深入 研究 了 数据 科学 课程 建设 的 共识 
与 经 验 。 相 对 于 共性 和 特色 , 数据 科学 课程 建设 中 的 
共识 和 经 验 更 为 具体 ,也 更 具有 操作 性 。 

(1) 教学 目的 一 一 培养 数据 科学 家 。 数 据 科 学 的 
教学 应 与 传统 的 数据 库 、 数 据 工 程 等 相关 课程 的 设计 
不 同 中 1 数据 科学 课程 的 主要 目的 是 培养 数据 科学 家 ， 


(5) 产 学 研 结 合 度 高 。 现 有 数据 科学 课程 的 另 
个 显著 特色 是 产 学 研 结合 程度 高 ， 而 这 也 成 为 数据 科 
学 区 别 于 其 他 课程 的 另 一 个 特色 。 数 据 科学 课程 建设 
中 的 产 学 研 结合 主要 表现 在 : 

人 使 用 产业 数据 。 例 如 , 在 Dave Holtz 等 开设 的 《数据 
科学 导论 》(Intro to Data Science)0u0 中 采用 波士顿 住房 数据 
集 ， 包 含 大 波士顿 地 区 房屋 所 有 特征 的 聚合 数据 ， 包 括 每 个 
地 区 房屋 的 中 间 值 。 

@) 来 自 产业 的 师资 队伍 。 例 如 , Rachel Schutt 在 哥 伦 比 
亚 大 学 开设 的 《Introduction to Data Science》 课 程 中 较 好 地 
处 理 了 学 生 、 教 师 和 业界 专家 的 关系 一 一 学 生 既 是 学 习 者 ， 
又 是 知识 的 创造 者 ， 通过 课堂 讨论 和 课 下 作业 的 方式 培养 
了 学 生 的 自主 学 习 能 力 和 批判 性 思考 能 力 。Rachel Schutt 曾 
在 Google+ 数 据 科 学 家 团队 中 工作 过 ,具备 产业 界 的 工作 经 
历 和 人 脉 资源 。 该 课程 还 邀请 来 自 产 业界 的 专家 做 专题 报 
告 ， 进 一 步 增 强 了 课程 的 产 学 研 结 合 性 。 再 如 , Airbnb 数据 
科学 家 Dave Holtz 等 来 自 产 业界 专家 在 Udacity 上 开设 了 
一 门 数 据 科 学 课程 一 一 《数据 科学 导论 》(Intro to Data 
Science)。 


而 不 是 数据 工程 师 。 数 据 科学 家 与 数据 工程 师 的 区 别 
如 表 2 所 示 。 可 见 ,数据 科学 家 不 仅 需 要 擎 握 一 定 的 
数据 管理 能 力 , 更 重要 的 是 开发 数据 产品 的 能 力 。 相 
对 于 数据 工程 师 , 数据 科学 家 更 需要 创造 性 思维 和 批 
判 性 思考 能 力 。 

表 2 数据 科学 家 与 数据 工程 师 的 区 别 


对 比 项 目 数据 工程 师 数据 科学 家 
工作 重点 。 数据 的 管理 基于 数据 的 管理 /决策 
工程 化 /标准 化 批判 性 思考 、 问 是 
束 本 素 属 。 向 范 化 做 事 能 力 。 意识 与 创造 力 
全 最 关内 红 领域 其 性 较 高 ，。 领域 差异 性 明显 


领域 依赖 度 较 低 领域 依赖 度 较 低 


(2) 教学 内 容 数据 科学 的 核心 理论 。 数 据 科 
学 的 基本 内 容 包括 数据 科学 的 基础 理论 、 数 据 加 工 
(Data Wrangling or Munging)、 统 计 学 、 机 器 学 习 、 试 
验 设计 、 数 据 计 算 、 数 据 管 理 、 数 据 分 析 、 数 据 科 学 
家 工具 以 及 数据 产品 开发 ， 如 表 3 所 示 。 


表 3 典型 数据 科学 课程 的 对 比分 析 


开设 课程 Intro 交 Data Intro 多 Data A Crash Clouse in aneion to FaemsnielS of 
和 学 校 ee Science | Solenes Data Science | Data elinse Data Solemee 
哈佛 大 学 华盛顿 大 学 。 ”Udacity 平台 约翰 ' 霍 普 金 斯 大 学 ”哥伦比亚 大 学 牛津 大 学 
基础 理论 、 Y Y Y ， Y 
数据 加 工 、 4 Y Y y ， 
统计 学 Y Y x Y y y 
机 器 学 习 x Y x Y Y x 
数据 可 视 化 y y y x x x 
数据 管理 + 、 x x + y 
数据 计算 、 Y Y x Y x 
数据 分 析 、 4 Y x Y Y 
数据 科学 工具 1 + 1 + 1 1 
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其 中 , 基础 理论 、 数 据 加 工 、 数 据 可 视 化 、 数 据 
计算 和 数据 科学 工具 等 往往 是 必 选 内 容 ， 而 统计 学 、 
机 需 学 习 和 数据 管理 是 可 选 内 容 , 根据 课程 的 培养 目 
标 和 学 生 所 具备 的 知识 水 平 决定 。 需 要 注意 的 是 , 数 
据 产品 开发 是 数据 科学 的 重要 内 容 , 但 目前 多 数学 校 
的 课程 中 尚未 突出 此 部 分 内 容 。 

(3) 实验 环节 一 一 基于 RR 或 Python 的 数据 科学 项 
目 。 从 目前 开设 的 数据 科学 课程 看 ,最 为 常见 的 是 R 
语言 (如 哈佛 大 学 的 《数据 科学 的 实用 方法 》(A 
Practical Approach to Data Science)) 和 Python 语言 (如 
Udacity 上 开设 的 《数据 科学 导论 》(Intro to Data 
Science))。 以 R 为 例 , 基于 及 的 实验 环境 可 以 分 为 两 种 : 

@D 直 接 以 及 软件 或 RStutio 为 基础 的 单机 实验 平台 。 

@) 基 于 Spark 或 Hadoop 平台 进行 R 编程 , 即 以 SparkR 
和 RHadoop 为 基础 的 集群 实验 平台 。 

但 是 , 已 开设 的 数据 科学 课程 主要 采用 的 是 以 R 
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设 的 《数据 科学 的 实用 方法 》(A Practical Approach to 
Data Science) 的 最 后 毕业 项 目 为 以 团队 合作 方式 完成 
2016 美国 总 统 大 选 的 预测 工作 。 值 得 一 提 的 是 ， 约 
验 : 霍 普 金 斯 大 学 的 数据 科学 课程 群 中 专门 有 一 门 名 
为 《数据 科学 团队 的 构建 》(Building a Data Science 
Team) 的 课程 ,特别 强调 了 团队 合作 在 数据 科学 项 目 
中 的 重要 地 位 。 

(5) 课程 定位 数据 科学 家 的 多 样 性 。 在 大 数 
据 时 代 , 数据 科学 家 可 以 分 为 两 种 : 专业 数据 科学 家 
与 专业 中 的 数据 科学 家 。 前 者 是 数据 科学 专业 出 身 ， 
对 领域 知识 的 掌握 不 一 定 很 高 ; 后 者 是 领域 专业 出 身 ， 
在 掌握 特定 领域 的 理论 与 实践 之 后 , 再 学习 了 一 定 的 
数据 科学 知识 ， 具有 很 强 的 领域 意识 和 能 力 , 但 对 数 
据 科 学 本 身 的 掌握 程度 不 如 专业 数据 科学 家 ,如 表 4 
所 示 。 目 前 , 数据 科学 课程 的 设计 中 也 充分 体现 了 数 
据 科 学 家 的 这 一 特征 。 例 如 ,华盛顿 大 学 的 《数据 科 


四 GUI 或 RStudio 为 基础 的 单机 实验 平台 ,而 对 以 
Cj SparkR 和 RHadoop 为 基础 的 集群 实验 平台 的 研发 力学 导论 》(Imtro to Data Science) 和 哈佛 大 学 的 《数据 科 
守 二 度 不 够 。 学 的 实用 方法 》(A Practical Approach to Data Science) 
上 (4) 教学 方式 团队 合作 。 与 其 他 领域 的 科学 则 重点 是 培养 专业 数据 科学 家 ; 哥伦比亚 大 学 的 《 数 
3 家 不 同 的 是 , 数据 科学 家 往往 以 团队 合作 为 主要 工作 ” 据 科 学 导论 》(Introduction to Data Science) 则 以 培养 金 
CN 方式。 因此 ,数据 科学 的 教学 设计 中 往往 特别 强调 融 、 医 疗 、 健 康 领域 中 的 数据 科学 家 为 主要 目的 , 其 
gy 团队 学 习 和 协同 工作 能 力 的 培养 。 例 如 ,哈佛 大 学 开 ”培养 目标 侧重 于 专业 中 的 数据 科学 家 。 
© 表 4 数据 科学 家 的 差异 性 
二 对 比 项 目 专业 数据 科学 家 专业 中 的 数据 科学 家 
© 二 起 点 并 非 领域 专家 ， 通 过 学 习 数据 科学 课程 直接 成 长 为 数据 先 已 成 为 领域 专家 ,然后 通过 学 习 数据 科学 课程 
科学 家 逐渐 成 为 数据 科学 家 
知识 广度 (数据 科学 ) 较 小 ( 仅 限于 数据 科学 ) 较 大 (不 仅 掌握 领域 知识 ,而 且 还 掌握 数据 科学 ) 
知识 深度 (数据 科学 ) 较 深 较 高 
角色 定位 指导 、 组 织 、 管 理 、 监 督 评价 专业 中 的 数据 科学 家 配合 与 支持 专业 数据 科学 家 
相关 课程 ( 淮 例 ) 。。 华 辟 顿 大 学 的 《Into to Data Science》; 哈佛 大 学 的 《A Practical 。 哥伦比亚 大 学 的 《Introduetion to Data Science》; 
Approach to Data Science》; 中 国人 民 大 学 的 《数据 科学 》 ”大 数据 科学 与 应 用 系列 讲座 


5 问题 与 挑战 


虽然 数据 科学 课程 的 建设 取得 了 一 定 的 成 功 , 但 
也 存在 诸多 问题 , 主要 表现 在 以 下 5 个 方面 : 

(1) 对 主讲 人 的 专业 背景 的 依赖 度 过 高 。 从 课程 
中 的 教学 设计 , 尤其 是 教学 立足 点 和 视角 看 ,数据 科 
学 课程 建设 表现 除了 主讲 人 专业 背景 一 一 课程 内 容 主 
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要 由 主讲 人 的 专业 背景 决定 ， 而 不 是 从 数据 科学 课程 
本 身 的 人 才 培 养 需求 出 发 。 目 前 , 开设 数据 科学 课程 
的 教师 主要 来 自 两 个 领域 ， 即 统计 学 和 机 器 学 习 。 来 
自 统计 学 的 教师 容易 凸显 统计 学 知识 和 思维 模式 ， 强 
调 统计 学 在 数据 科学 中 的 主导 地 位 ,反之 亦 然 。 但 是 ， 
在 数据 科学 课程 的 教学 中 需要 注意 两 个 问题 : 

统计 学 和 机 器 学 习 并 不 是 数据 科学 的 基础 理论 ， 而 


是 其 理论 基础 而 已 , 严格 地 说 应 该 在 数据 科学 的 范畴 之 外 。 
因此 ， 数 据 科学 课程 中 适当 设 有 统计 学 和 机 器 学 习 的 内 容 
是 可 以 的 , 但 教学 重点 不 能 仅 限于 这 些 理论 基础 ， 应 回归 到 
数据 科学 本 身 的 基础 理论 一 一 数据 科学 的 理念 理论 、 方 法 、 
技术 、 工 具 和 应 用 ; 

@ 数 据 科 学 的 教学 中 应 平衡 统计 学 和 机 器 学 习 的 关系 ， 
应 把 教学 重点 放 在 二 者 的 互补 优势 以 及 在 数据 科学 中 如 何 
综合 运用 统计 学 和 机 器 学 习 的 知识 。 

(2) 课程 内 容 选 择 面 广 , 缺乏 系统 性 。 数据 科学 课 
程 的 教学 中 存在 一 个 重要 问题 是 课程 覆盖 面 太 广 , 模 
块 化 程度 过 高 ， 而 对 不 同 知识 模块 之 间 的 关系 讲解 不 
够 ,课程 内 容 显 得 碎片 化 , 缺少 系统 性 。 

(3) 对 学 生 专业 差异 性 的 关注 不 够 。 数 据 科学 主要 
依存 在 不 同 领域 之 中 , 各 领域 中 的 数据 科学 存在 一 定 差 
异性 。 例 如 金融 大 数据 中 强调 的 是 数据 的 快速 洞 见 , 社 
会 记忆 大 数据 中 强调 的 是 数据 的 长 久保 存 与 可 持续 利 
用 。 但 是 , 目前 的 数据 科学 课程 中 没有 重视 这 种 差异 性 。 

(4) 对 数据 科学 基础 理论 的 讲解 不 够 。 需 要 注意 
的 是 , 基础 理论 和 理论 基础 是 两 个 不 同 的 概念 。 从 目 
前 的 课程 设计 看 , 对 统计 学 、 机 器 学 习 等 理论 基础 的 
讲解 过 多 ， 而 对 数据 科学 本 身 的 基础 理论 的 讨论 过 少 ， 
没有 很 好 地 回答 数据 科学 的 基本 理念 、 理 论 、 方 法 、 
技术 、 工 具 、 最 佳 实践 是 什么 的 问题 。 

(5) 教学 方法 的 单一 性 。 从 课程 教学 方式 看 ， 主 要 
还 是 以 讲解 为 主 , 缺少 必要 的 方法 创新 如 网 授 和 面 
授 的 互补 ， 翻 转 课堂 的 设计 等 一 些 新 的 教学 方法 尚未 
应 用 到 数据 科学 的 教学 过 程 中 ,限制 了 教学 效果 和 学 
习 质 量 。 


6 对策 与 启示 


组 庸 置疑 ， 针 对 上 述 5$ 个 问题 的 解决 思路 大 家 都 
能 想到 一 些 , 例如 应 避免 与 主讲 人 自己 的 专业 背景 的 
过 度 依赖 等 。 但 是 , 更 应 关注 的 是 如 何 从 根本 上 (而 不 
是 在 表面 上 ) 解 决 数据 科学 课程 建设 中 的 挑战 与 困难 。 
要 想 从 根本 上 做 好 数据 科学 的 教育 ,必须 从 深层 次 上 
解决 上 述 局 限 性 , 需要 回答 以 下 10 个 核心 问题 一 一 数 
据 科 学 课程 的 教学 设计 与 改革 中 的 核心 问题 。 

(1) 为 什么 要 开设 数据 科学 课程 ”数据 科学 已 成 
为 领域 专家 必 备 的 知识 和 能 力 之 一 。 如 今 ， 几乎 所 有 
的 专家 都 在 谈论 大 数据 , 但 是 部 分 “专家 ”并 不 是 真正 
懂得 大 数据 及 其 背后 的 科学 一 一 数据 科学 。 在 国内 ， 
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数据 科学 的 系统 性 研究 仍 属 空白 ， 人 们 只 知道 需要 学 
习 这 门 新 兴 科 学 , 但 并 不 知道 如 何 学 习 。 因此, 开设 数 
据 科 学 课程 非常 有 必要 。 

(2) 开设 数据 科学 课程 的 时 机 是 否 成 熟 ? 笔者 的 
调查 发 现 ,目前 国内 外 有 超过 80 个 学 校 已 经 成 功 开设 
数据 科学 课程 。 另 外 , 数据 科学 相关 的 图 书 、 期 刊 、 
论文 、 实 践 、 代 表 性 人 物 也 越 来 越 多 , 已 足以 开设 一 
门 课程 。 

(3) 什么 是 数据 科学 的 知识 体系 ?数据 科学 的 体 
系 如 图 2 所 示 , 除了 统计 学 、 机 和 带 学 习 和 数据 可 视 化 
等 理论 基础 之 外 ,主要 包括 基础 理论 、 数 据 加 工 、 数 
据 计 算 、 数 据 管理 、 数 据 分 析 、 数 据 产 品 研 发 以 及 在 
某 一 具体 学 科 领 域 中 的 应 用 0 。 


Pa 


基础 理论 


数据 加 工 
数据 计算 


数据 可 视 化 


图 2 数据 科学 的 知识 体系 14 
(4) 如 何 设计 数据 科学 课程 ? 从 现 有 课程 建设 经 
验 看 ,数据 科学 课程 的 设计 至 少 需 要 遵循 四 个 基本 原 
则 ,如 表 5 所 示 。 


表 5 数据 科学 课程 设计 的 四 项 基本 原则 
序号 ”设计 原则 地 及 条 应 该 
ce ee 培养 
1 。 最 终 目标 增 养 数据 科学 家 。。 玫 记 个 
侧重 数据 科学 的 “侧重 数据 科学 的 
2 主要 特色 基础 理论 理论 基础 
、 讲解 数据 科学 的 
3 要 任务 “培育 兴趣 与 自学 能 力 “全 部 理论 
4 ”基本 前 提 “统筹 数据 科学 课程 链 “脱离 于 相关 谍 程 
的 独立 设 i 
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人 培养 数据 科学 家 为 最 终 目 标 。 数 据 科 学 课程 的 主 
要 培养 人 才 是 数据 科学 家 ， 而 不 是 数据 工程 师 或 数据 管 
理 员 。 

@ 侧 重 数据 科学 的 基础 理论 为 主要 特色 。 数据 科学 课程 
的 教学 内 容 需 要 重视 数据 科学 本 身 的 基础 理论 ， 包括 数据 
科学 的 研究 范式 、 研 究 方 法 、 研 究 技 术 和 工具 等 , 而 不 是 讲 
解 其 理论 基础 ， 如 统计 学 、 机 器 学 习 、 数 据 挖 握 等 。 

图 培育 兴趣 与 自学 能 力 为 首要 任务 。 数 据 科学 家 与 数据 
科学 的 一 个 重要 区 别 是 具备 高 度 的 创造 力 。 兴趣 和 信心 是 创 
造 力 来 源 。 数 据 科 学 是 一 门 快速 发 展 的 学 科 , 不 可 能 也 没 必 
要 讲解 数据 科学 及 相关 的 所 有 理论 ,而 应 以 保护 和 培育 学 
生 对 数据 学 科 的 兴趣 和 信心 为 首要 任务 。 实 践 证 明 ， 数 据 科 
学 的 学 生 多 数 来 自 非 计算 机 和 统计 学 类 专业 ， 而 他 们 对 统 
计 学 、 机 器 学 习 本 身 就 有 距离 感 和 愁 惧 感 ， 如 果 引 导 不 当 ， 
容易 导致 学 生 信心 的 挫败 ， 数 据 科 学 课程 的 教学 将 以 失败 
生 纹 


@ 统 筹 数据 科学 课程 链 为 基本 前 提 。 数据 科 学 课程 的 设 
计 必 须 与 相关 课程 统一 规划 , 不 能 脱离 于 其 他 课程 的 设计 。 
也 就 是 说 ， 数据 科学 课程 的 设计 不 仅 需要 遵循 数据 科学 本 
身 的 特色 , 而 且 还 需要 注意 相关 课程 链 的 设计 及 对 本 课程 
的 影响 。 

(5) 数据 科学 课程 的 目标 学 生 群 体 是 谁 ?” 从 目前 
的 课程 开设 情况 看 , 数据 科学 课程 一 般 对 学 生 专 业 类 
型 和 学 历 层次 不 予以 限制 。 但 是 , 应 该 注意 到 两 个 问 
题 ， 如 图 3 所 示 。 


硕士 
本 博 
科 二 
数据 科学 课程 的 数据 科学 课程 的 
目标 学 生 群 体 目标 学 生 和 群体 


图 3 数据 科学 课程 的 目标 群体 


@D 非 计算 机 学 科 领 域 的 学 生 是 主力 军 。 从 学 科 影 响 程度 
和 受 欢迎 程度 看 数据 科学 对 传统 的 医疗 、 地 理 、 化 学 、 生 
物 、 管 理学 、 金 融 学 、 社 会 学 、 图 书 情报 、 信 息 资源 管理 、 
历史 学 等 非 计 算 机 领域 的 影响 更 为 显著 。 在 大 数据 时 代 ， 非 
计算 机 学 科 领 域 亟 待 思 维 范 式 的 转变 和 动手 能 力 的 提升 ， 
学 习 数 据 科 学 正 是 他 们 赖 以 发 展 的 主要 抓 手 。 反 而 ， 计 算 机 
学 科 领 域 由 于 已 经 学 习 过 相关 课程 ,往往 仅 需要 知识 系统 
的 构建 和 前 没 知 识 的 导论 性 学 习 。 

@) 硕 士 层 次 的 学 生 是 主体 。 国 外 数据 科学 学 位 项 目 主要 
集中 在 硕士 层次 , 很 少 有 本 科 或 博士 层次 的 学 位 项 目 ,这 也 
在 一 定 程度 上 反映 了 数据 科学 课程 的 另 一 个 特殊 性 。 从 数据 
科学 本 身 的 特点 和 发 展现 状 看 ,数据 科学 课程 更 适合 向 在 
读 研 究 生 开 设 , 主要 原因 有 两 个 : 一 是 数据 科学 对 领域 知识 


数据 分 析 与 知识 发 现 


和 经 验 的 依赖 度 高 ， 脱离 领 域 问题 和 经 验 ， 数据 科学 课程 教 
育 变 得 枯燥 而 盲目 ， 因 此 ,数据 科学 课程 不 太 适 合 本 科 生 教 
育 ; 另 一 个 是 数据 科学 本 身 的 发 展 不 成 熟 ， 相关 理论 性 研究 
尚未 健全 ， 目 前 仍 不 适合 做 博士 层次 的 教育 。 

(6) 数据 科学 课程 的 设计 是 否 应 该 注意 学 生 专 业 
差异 性 ?从 目前 开设 课程 经 验 看 , 数据 科学 课程 的 设 
计 至 少 区 别 对 等 计算 机 及 相关 专业 和 非 计 算 机 专业 ， 
如 图 4 所 示 。 


《数据 科学 导论 》 《数据 科学 方法 与 
类 课程 技术 》 类 课程 
v v 
专业 数据 科学 家 专业 中 的 数据 科学 家 


图 4 数据 科学 课程 的 专业 差异 性 


人 来 自 计算 机 及 相关 专业 的 学 生 需 要 学 习 的 是 《数据 科 
学 导论 》 类 课程 ， 教学 设计 与 过 程 应 强调 “导论 性 ”,， 需要 给 
学 生 一 个 全 景 图 ,为 后 续 进一步 深入 讲解 做 铺垫 ,教学 目标 
的 定位 是 “专业 数据 科学 家 ”。 

人 @) 来 自 非 计 算 机 专业 的 学 生 需 要 学 习 的 是 《数据 科学 方 
法 与 技术 了》 类 课程 ， 应 重视 学 生 结 合 自己 的 领域 知识 和 问题 ， 
采用 数据 科学 的 方法 和 技术 进行 批判 性 思考 、 动 手 操作 和 问 
题解 决 的 能 力 ， 培 养 目的 是 “专业 中 的 数据 科学 家 ”。 

(7) 从 事 数据 科学 改革 的 瓶颈 或 困难 在 哪里 ” 主 
要 集中 在 4 个 方面 , 如 图 5 所 示 。 


RS 缺少 
WT 实战 经 验 
IBM | | 开放 数据 - 科研 项 目 国外 教材 
Workbench 
SPSS . i i 
Aie | | 挑战 赛 数据 | 挑战 守 本 二 教材 | 
Server 
BM | 站 与 企业 合作 | 上 | 开源 项 目 | 上 | 支持 


图 5 数据 科学 课程 建设 中 的 和 瓶颈 


@D 缺 少 平台 : 数据 科学 课程 需要 数据 分 析 ， 尤 其 是 大 数 
据 管 理 平台 。 但 是 , 很 多 教师 和 学 校 没有 条 件 自己 购买 或 搭 
建 昂 贵 的 实验 平台 。 因 此 ， 数 据 科学 的 课程 应 积极 引入 IBM 
Workbench、SPSS Analytic Server、IBM Bluemix 等 第 三 方 提 


供 的 平台 。 

@@ 缺 少数 据 : 数据 科学 课程 中 缺少 数据 是 另 一 个 瓶颈 ， 
可 能 的 解决 方案 有 自己 抓 取 、 与 第 三 方 合作 、 重 用 竞赛 数据 
集 、 开 放 获 取 ,， 尤 其 是 国外 政府 部 门 开放 的 数据 。 

图 缺少 实战 经 验 : 应 鼓励 主讲 人 多 参与 科研 项 目 、 挑 战 
赛 、 开 源 项 目 ， 重 视 与 企业 合作 ， 加 强 同 行 交 流 与 跨行 合作 。 
另外 ,建议 教师 们 多 参与 相关 的 GitHub 等 协作 平台 上 的 开 
源 项 目 以 及 Kaggle 等 竞赛 平台 上 的 学 术 竞 赛 。 

(@ 缺 少 参考 材料 : 一 直 以 来 ， 数据 科学 课程 的 教学 中 教 
材 选 定 是 一 个 问题 , 主要 原因 是 国内 没有 本 土 教材 , 而 国外 
教材 要 么 理论 性 太 高 ,， 要么 实践 性 太 强 , 不 适合 国内 教育 。 
但 是 , 这 两 年 国内 也 有 一 些 新 的 教材 ， 如 清华 大 学 出 版 社 出 
版 的 国内 第 一 部 系统 阐述 数据 科学 的 教材 《数据 科学 》 以 及 
《数据 科学 理论 与 实践 》。 

(8) 如 何 跟踪 数据 科学 的 最 新 动态 ?数据 科学 是 
一 门 不 断 发 展 和 变化 的 学 科 , 要 求 从 业 教师 必须 不 断 
跟踪 国内 外 相关 研究 进展 。 

人 学 术 期 刊 : Data Science Journal (ISSN 1683-1470)、 
2364-1185) 、 
International Journal of Data Science and Analytics (ISSN: 
2364-415X)、JInternational Journal of Data Science (ISSN: 
2053-0811); 

@) 国 际会 议 : IEEE DSAA(IEEE International Conference 
on Data Science and Advanced Analytics) 、ACM IKDD 
CODS(ACM India SIGKDD Conference on Data Sciences)、 
ICDSE(International 
Engineering) 、ICDS(The International Conference on Data 


Data Science and Engineering (ISSN: 


Conference on Data Science and 


Science)、Unstructured Data Science Pop-up 等 ; 

@ 研 究 机 构 : 伦敦 帝国 学 院 (Imperial College London) 数 
据 科 学 研究 所 、 哥 伦比 亚 大 学 数据 科学 研究 所 (Data Science 
Institute)、 纽 约 大 学 的 数据 科学 中 心 (NYU Center for Data 
Science)、 加 州 大 学 伯克利 分 校 的 数据 科学 中 心 (Data Science 
at UC Berkeley)、 全 球 数 据 科 学 (Data Science Global 、 中 
人 民 大 学 数据 工程 与 知识 工程 教育 部 重点 实验 室 以 及 一 些 
大 数据 企业 (如 IBM、Google、Facebook 等 ) 的 数据 科学 部 门 ; 

井 课程 资源 : 中 国人 民 大 学 开设 的 数据 科学 MOOC 课 
程 ; 哈佛 大 学 、 麻 省 理工 学 院 、 斯 坦 福 大 学 、 纽 约 大 学 、 哥 
伦比 亚 大 学 的 数据 科学 及 相关 课程 ; 

@@) 硕 士 学 位 项 目 : 卡 内 基 - 梅 隆 大 学 、 斯 坦 福 大 学 、 纽 约 
大 学 、 加 州 大 学 伯克利 分 校 、 旧 金山 大 学 、 哥 伦比 亚 大 学 、 
佐治 亚 理 工学 院 、 伊 利 诺 伊 理工 学 院 、 马 里 兰 大 学 和 印第安 
纳 大 学 等 学 校 开 设 的 数据 科学 硕士 学 位 课程 ; 

@ 专 家 学 者 : Alex(Sandy) Pentland(MIT 教授 机 器 学 习 、 
人 工 智 能 与 人 类 计算 领域 的 知名 科学 家 )、DJPatil( 白 宫 首席 
数据 科学 家 )、Carlos Somohano(Data Science London 的 创始 
人 之 一 )、Monica Rogati(LinkedIn 高 级 数据 科学 家 )、Sergey 
Yurgenson( 哈 佛教 授 )、Kirk Borne(2014 年 被 评 为 [BM 大 数 


据 与 分 析 英 雄 )、Hilary Mason(Fast Forward Labs 发 起 人 ， 知 
名 学 者 )、Yann Lecun( 纽 约 大 学 数据 科学 中 心 的 负责 人 )、Jeff 
Hammerbacher( 曾 在 Facebook 带 过 数据 团队 )、Jeremy 
Achin(Data Robot 创始 人 )、Carla Gentry(Analytical Solution 
的 数据 科学 家 )、 朝 乐 门 (国内 较 早 系统 阐述 数据 科学 专著 的 
作者 ) 等 的 个 人 网 站 (主页 )、 博 客 、Facebook 或 Twiter 等 [3。 

(9) 如 何 处 理 好 其 他 课程 之 间 的 关系 ? 随 着 大 数 
据 时 代 的 到 来 , 原本 分 散在 信息 论 、 控 制 论 和 系统 论 
等 底层 理论 中 的 “数据 问题 "从 各 自学 科 之 中 独立 出 
来 , 逐渐 聚焦 成 为 一 门 新 兴学 科 一 一 数据 科学 。 数 据 
科学 对 领域 知识 的 最 大 影响 在 于 将 进一步 抽象 基础 科 
学 (如 信息 论 、 控 制 论 和 系统 论 等 ) 中 的 “数据 问题 "， 并 
使 领域 知识 与 其 理论 基础 之 间 出 现 一 门 新 科学 ,二 者 
的 研究 责任 与 研究 边界 将 进一步 明确 。 也 就 是 说 , 经 
济 学 、 新 闻 学 、 社 会 学 等 上 层 理论 将 共享 一 个 理论 基 
础 一 一 数据 科学 ,而 不 再 直接 面 对 信 息 论 、 控 制 论 和 
系统 论 等 底层 理论 ， 如 图 6 所 示 。 当然 ,数据 科学 课程 
的 设计 应 与 其 他 专业 课程 设计 同步 进行 , 需要 统一 的 
顶层 设计 。 男 外 , 还 可 以 考虑 采取 华盛顿 大 学 和 约 
翰 : 霍 普 金 斯 大 学 的 方式 , 建设 一 个 课程 群 来 深入 讲解 
数据 科学 的 内 容 。 


底层 


理论 系统 论 


信息 论 


控制 论 可 
图 6 数据 科学 课程 的 学 科 定 位 


(10) 如 何 处 理 数据 科学 课程 与 数据 科学 专业 之 
间 的 关系 ?数据 科学 课程 和 数据 科学 专业 是 两 个 不 同 
的 概念 。 课 程 不 是 专业 的 浓缩 ,专业 也 不 是 课程 的 分 
解 。 数 据 科 学 课程 可 以 设立 在 数据 科学 专业 课程 体系 
中 , 也 可 以 设立 在 其 他 专业 的 课程 体系 之 中 。 需 要 注 
意 的 是 , 数据 科学 专业 的 培养 目标 往往 是 “专业 数据 
科学 家 ”， 而 其 他 专业 的 课程 , 尤其 是 设立 在 其 他 专业 
中 的 数据 科学 课程 的 培养 目标 是 “专业 中 的 数据 科学 
家 ”如 图 7 所 示 。 

总 之 , 数据 科学 的 课程 建设 不 仅 需要 遵循 课程 建 
设 的 一 般 规律 ， 而且 还 应 符合 数据 科学 本 身 的 特殊 
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图 7 数据 科学 课程 与 数据 科学 专业 的 区 别 与 联系 


性 。 本 文 主要 在 教师 及 教学 活动 层面 讨论 了 数据 科学 
课程 改革 问题 。 但 是 , 不 能 忽略 另 一 个 重要 影响 因素 
一 一 学 校 及 上 级 管理 部 门 的 正确 引导 和 大 力 支 持 。 学 
校 及 上 级 部 门 需 要 对 数据 科学 课程 进行 项 层 设计 , 不 
仅 要 将 其 纳入 专业 课程 的 必修 课程 目录 ， 而且 应 对 从 
事 教学 工作 的 教师 给 予 一 定 的 激励 ， 如 : 以 工作 量 统 
计时 按 倍数 计算 的 方式 肯定 课程 教学 的 难度 、 采 用 改 
进 教学 评价 体系 的 方式 消除 教师 课程 改革 的 后 顾 之 
忧 、 提 供 教学 必 备 条 件 (如 平台 、 数 据 等 ) 以 解决 教师 
课程 建设 中 的 瓶颈 以 及 通过 教学 改革 立项 等 方式 提供 
经 费 支 持 等 。 数 据 科 学 课程 的 建设 是 一 个 系统 工程 ， 
需要 的 是 几 代 人 的 不 懈 努 力 ,在 此 笔者 也 呼吁 大 家 共 
同 努 力 , 为 数据 科学 课程 的 教学 设计 与 改革 做 出 自己 
的 贡献 。 
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Abstract: [Objective] This paper identifies the common features of existing Data Science curriculums around the 
world. It also addresses the main challenges facing these courses as well as possible solutions. [Methods] We 
conducted an empirical study with the help of text analysis techniques to examine the data science curriculums from 
China and abroad. [Results] We found common features of the retrieved curriculums and the differences between them 
and other related courses. [Limitations] Our study focused on the curriculum issues, therefore, more research is needed 
to discuss data science as a discipline. [Conclusions] This paper addresses the top ten key challenges facing data 
science curriculum and then proposes some solutions. 
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NISO 推出 词汇 表 管理 技术 报告 草案 征询 公众 意见 


美国 国家 信息 标准 组 织 (National Information Standards Organization，NISO) 于 近日 就 一 项 新 的 技术 报告 草案 词汇 表 
管理 一 一 面向 公众 征询 意见 。 该 文件 是 NISO 书目 路 线 图 发 展 项 目的 成 果 之 一 , 该 项 目 始 于 2013 年 , 由 Andrew W. Mellon 
基金 会 资助 。 书 目 路 线 图 项 目 探 讨 了 在 全 球 网 络 环境 中 进行 先进 书目 交换 的 可 用 性 和 采用 的 要 求 , 并 在 2014 年 4 月 发 布 的 
最 终 报告 中 对 今后 的 潜在 工作 领域 进行 了 优先 考虑 ， 其 中 包括 本 技术 报告 中 所 包含 的 内 容 : 支持 词汇 表 使 用 和 重用 的 政策 ， 
词汇 表 使 用 手册 以 及 保存 RDF 词汇 表 的 要 求 。 

随 着 业界 对 分 享 书目 信息 的 新 环境 的 兴趣 的 增加 ,， 有关 合 理 的 政策 以 及 支持 性 基础 设施 的 问题 逐渐 浮 出 水 面 。 本 技术 报 
告 的 目的 是 , 为 在 当前 过 渡 环 境 中 运营 词汇 表 的 管理 人 员 提 供 词 汇 管理 的 背景 知识 , 特别 是 那些 不 太 了 解 相关 政策 和 社会 结 
构 以 及 缺乏 实践 经 验 的 运营 人 员 。 本 技术 报告 还 由 在 为 今后 的 填补 工作 提出 一 般 性 建议 。 

“讨论 所 有 这 些 活动 的 目标 是 强调 词汇 环境 中 稳定 性 的 重要 性 , 特别 是 在 描述 性 信息 移植 到 关联 开放 数据 环境 中 时 互 操 
作 的 需求 , ”元 数据 管理 协会 主席 兼 使 用 与 重用 工作 组 联合 主席 Diane Hillmann 指出 :“ 这 些 问 题 并 不 新 鲜 , 我 们 看 到 最 近 业 
界 对 这 一 领域 的 关联 数据 的 兴趣 不 断 增 加 , 希望 这 个 技术 报告 能 够 进一步 推动 相关 解决 方案 的 开展 。” 

NISO 项 目 副 总 监 Nettie Lagace 评论 说 : “NISO 社区 由 图 书馆 员 ， 出 版 商 ， 系统 和 服务 供应 商 组 成 ， 当 然 这 个 文件 也 是 为 
他 们 写 的。 但 除了 这 些 团体 之 外 , 我 们 希望 该 文件 还 可 以 帮助 许多 个 人 和 团体 建立 和 分 享 书目 及 其 他 描述 性 数据 ， 以 及 各 种 
组 织 中 的 知识 管理 人 员 使 用 词汇 表 解 决 问题 。” 

(编译 自 : http://www.niso.org/news/pr/view?item_ key=9a2cb172e0cac23d1d4026fddeb2cfd28clcbd73) 
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